您选择的条件: 刘 康
  • 基于维基百科的多种类型文献自动分类 研究*

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-12-05 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】通过基于维基百科的特征扩展解决由于不同类型文献而产生的特征不匹配等问题, 以提高文本分 类效果。【方法】在特征扩展之前, 对 TF-IDF 加以改进, 提出并使用一种新的特征选择方法 CDFmax-IDF 获得候 选词集; 在使用维基百科进行特征扩展时, 通过分别计算直接链接关系、类别关系、间接链接关系三类词语间关 系并进行融合得到词语间的语义相关度实现特征扩展; 针对扩展得到的特征, 提出一种改进的 LDA 概率主题模 型 wLDA 模型进行文本建模。【结果】本文提出的方法分别在朴素贝叶斯、KNN 和 SVM 三种分类器上实现分 类, 其 marco-F1 和 micro-F1 分别提升 1.6%-2.8%和 1.4%-2.7%。【局限】尚未考虑特征词本身及特征词间的相互 联系, 比如特征词本身的词性、出现在单篇文档中的位置、特征词间的共现关系等因素对特征词权重的影响。【结 论】通过多种对比研究证明了使用基于维基百科的特征扩展方法对特征词扩展的有效性, 提高了多种类型文献 的自动分类效果。

  • 基于《知网》的多种类型文献混合自动分类研究

    分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-10-11 合作期刊: 《数据分析与知识发现》

    摘要: 【目的】解决由于不同类型文献而产生的特征不匹配等问题, 提高待分类文本的分类效果。【方法】使用与待分类文本属于不同文献类型的文本作为语料库的训练集, 引入第三方资源《知网》进行语义特征扩展。【结果】利用该方法在网页、图书、非学术性期刊、学术性期刊4 种类型文献上进行分类实验, 与未经过扩展的分类方法相比, 分类准确率提高1.2%至11.0%。【局限】未对每一种文献类型都使用公开语料进行测试, 因此本文方法的通用性和实验结果的客观性有待进一步检验。【结论】实验结果表明, 该方法具有一定的可行性和实用性,在不同程度上可以消除不同类型文献之间的语义差异, 从语料库构建和特征扩展两个途径提高文本自动分类的分类效果。